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摘要 : [ 目的/ 意义] 在 产业 链 视 角 下 ， 以 虚拟 现实 技术 为 例 ， 构 建 VR 专利 产业 链 语料库 ， 挖 扬中 
VR 专利 的 技术 主题 、 研 发 热点 和 未 来 发 展 趋势 。[ 方法 / 过程] 首先， 利用 Python KR VR 领域 的 
专利 文本 ， 通 过 数据 清洗 得 到 有 效 语 料 库 ; 然后 ， 结 合 IPC 分 类 号 和 开 -means 聚 类 算法 ， 构 建 并 验证 
VR 专利 产业 链 ; 最 后 ， 基 于 TF-IDF 算法 和 LDA 主题 模型 ， 识 别 出 产 业 链 视角 下 中 国 VR 专利 的 核心 
技术 主题 及 其 综合 强度 、 技 术 研发 热点 和 未 来 趋势 . [结果 /结论 ] 当前 中 国 VR 产业 链 各 环节 的 专利 
比例 不 均衡 ， 上 游 研发 最 热门 ， 其 次 是 下 游 应 用 ， 最 薄弱 的 是 中 游 制作 。 主 题 挖 据 方 面 ， 上 游 热点 为 软 
件 研 发 ， 中 游 热 点 为 影视 制作 ， 下 游 热 点 为 医疗 、 教 育 、 娱 乐 应 用 。 未 来 趋势 方面 ， 产 业 链 上 游 将 以 电 
数字 数据 处 理 、 光 学 元 件 、 图 像 通信 等 技术 为 主流 ， 中 游 将 以 车 辆 部 件 、 动 力 装置 、 减 振 装 置 等 技术 为 
主流 ， 下 游 将 以 室内 游戏 、 医 学 诊断 、 鉴 定 等 技术 为 主流 。 
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进行 分 类 、 构 建 主题 间 的 相互 关系 、 预 测 主题 
的 发 展 趋势 等 ) ， 对 技术 研发 内 容 具 有 高 度 的 
概括 性 和 代表 性 趾 。 随 着 深度 学 习 和 机 器 学 习 
的 兴起 ， 文 本 挖掘 被 越 来 越 广泛 地 应 用 在 技术 
专利 主题 分 析 中 ， 其 中 以 LDA (Latent Dirichlet 
Allocation ) 主题 模型 尤为 突出 。 专 利 技术 主题 
分 析 方 法 主要 是 抽取 专利 文献 标题 、 摘 要 及 技 
术 要 点 中 的 技术 特征 词 ， 利 用 文本 挖掘 方法 选 
择 获 得 主题 词 ， 建 立 主 题词 之 间 的 共 现 关联 关 
系 ， 从 而 聚 类 获得 技术 主题 中。 专利 技术 主题 
分 析 常 用 的 方法 包括 : 中 利用 专利 的 分 类 属性 
作为 其 技术 主题 ; @) 通 过 专利 共 现 网 络 和 引用 
关系 为 专利 聚 类 ; 图 使 用 SAO (subject -action 
-object ) 结构 语义 相似 度 识 别 、 主 题 模型 或 主题 
聚 类 等 方式 从 专利 等 科技 文献 中 挖掘 技术 主题 ; 
人 借助 技术 主题 的 时 间 信 息 ， 使 用 时 间 序 列 分 
析 等 方式 预测 技术 主题 演化 趋势 中 

在 信息 技术 快速 发 展 的 知识 经 济 时 代 ， 虚 
拟 现 实 作为 战略 新 兴 技 术 的 代表 ， 涉 及 通信 、 
互联 网 、 新 媒体 等 多 个 领域 ， 具 有 突出 的 跨 界 
融合 性 与 技术 交叉 性 ， 有 望 引领 新 一 轮 技术 的 
变革 。 众 多 科技 新 兴 企 业 均 在 VR 领域 积极 布局 ， 
主要 科技 大 国 也 均 把 VR 列 为 战略 新 兴 领 域 ， 中 
国 在 国家 “十 三 五 ”规划 纲要 、G20 工商 峰会 
上 的 重要 讲话 中 提出 要 发 展 人 工 智能 和 虚拟 现 
实 等 技术 ， 大 力 支 持 虚 拟 现实 (VR) 等 新 兴 前 
沿 领域 创新 和 产业 化 ， 建 设 创新 型 世界 经 济 T, 
在 产业 链 视 角 下 ， 深 度 挖 所 中国 VR 领域 的 专利 
技术 主题 、 技 术 热 点 与 发 展 趋 势 ， 可 以 分 别 从 
宏观 、 中 观 和 微观 不 同 的 角度 对 政府 、 产 业 和 
企业 提供 不 同 的 情报 服务 ， 在 此 基础 上 制定 相 
应 的 竞争 战略 ; 有 助 于 相关 政府 部 门 、VR 科研 
机 构 和 企业 等 主体 在 中 国 和 全 球 范围 内 更 好 地 
进行 专利 布局 ， 为 中 国 VR 产业 发 展 提供 参考 
建议 , 最终 提 高 中 国 VR 领域 的 整体 产业 竞争 力 。 


@ 相关 研 究 


2.1 虚拟 现实 
虚拟 现实 是 以 计算 机 技术 为 核心 ， 生 成 与 
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现实 环境 在 视 、 听 、 触 感 等 方面 高 度 近 似 的 数 
字 化 环境 。 用 户 借助 相关 设备 与 虚拟 环境 中 的 
对 象 进行 交互 ， 从 而 产生 真实 环境 的 感受 和 体 
验 。 目 前 关于 虚拟 现实 的 研究 主要 集中 在 技术 
研究 、 系 统 研究 “"、 应 用 研究 ”3 个 方面 : 
QD 虚拟 现实 技术 研究 。 学 者 主要 从 立体 显示 技 
术 中 、 传 感 器 技术 '"、 三 维 图 形 生 成 技术 "等 
方面 将 虚拟 和 现实 环境 进行 混合 、 实 时 交互 、 
三 维 注册 。@ 虚 拟 现实 系统 研究 。 主 要 分 为 硬 
件 研 究 和 软件 研究 ， 人 硬件 人 研究 包括 三 维 跟踪 定 
位 设备 、 人 体 运 动 捕捉 设备 、 触 觉 力 觉 反馈 设 
备 等 的 研究 Us 软件 研究 包括 数据 库 研 究 " 
三 维 动画 、 网 络 场景 等 应 用 软件 研究 '"， 基 于 
Vizard 软件 、Virtools 软件 、EON 软件 等 的 虚拟 
现实 开发 平台 研究 5。 国 虚 拟 现实 应 用 研究 。 
随 着 技术 不 断 地 进步 与 成 熟 ， 虚 拟 现 实 技术 逐 
渐 被 应 用 到 教育 ""、 医 疗 " 0 、 图 书馆 、 博 物 
fi 9 等 不 同 场合 ， 从 而 为 人 们 的 生产 、 生 活 、 
学 习 带 来 巨大 的 影响 与 冲击 。 
2.2 基于 文本 挖掘 的 专利 技术 主题 分 析 

技术 主题 分 析 是 文本 挖掘 在 专利 分 析 中 的 
重要 应 用 之 一 。 目 前 已 有 较 多 利用 文本 挖掘 方 
法 进行 专利 技术 主题 分 析 的 研究 成 果 ， 依 次 包 
括 词 频 统计 分 析 、 共 词 分 析 、 文 本 聚 类 分 析 、 
文本 挖掘 技术 与 引文 聚 类 相 结合 的 技术 主题 分 
析 所 。 中 基于 词 频 统 计 的 技术 主题 研究 。 主 要 
是 通过 IPC 分 类 号 、 高 频 词 等 的 统计 分 析 ， 研 
究 某 技术 领域 的 主题 分 布 情况 后 。@) 基 于 共 词 
分 析 的 技术 主题 研究 。 主 要 包括 共 词 网 络 分 析 、 
共 词 聚 类 分 析 和 战略 图 分 析 3 种 方法 ， 可 以 比 
较 客 观 地 揭示 技术 领域 中 的 各 技术 主题 及 技术 
主题 之 间 的 相互 关联 中 。@ 基 于 文本 肾 类 的 
技术 主题 研究 。 主 要 是 对 专利 进行 聚 类 ， 形 成 
代表 技术 主题 的 多 个 聚 徐 ; 为 每 个 聚 复生 成 主 
题词 ， 从 而 直观 有 效 地 表示 技术 主题 的 分 布 情 
况 上 。 鳃 基于 文本 挖掘 与 引文 聚 类 相 结合 的 技 
术 主 题 研究 。 主 要 从 文本 信息 与 引用 信息 的 底 
层 融 合 角度 ， 分 析 技 术 研究 热点 、 识 别 新 兴 技 
术 主 题 、 预 测 技术 主题 的 发 展 趋势 。 
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2.3 基于 LDA 主题 模型 的 专利 技术 主题 分 析 
基于 LDA 模型 的 专利 技术 主题 分 析 主 要 


分 为 两 类 ， 


类 是 直接 采用 传统 的 LDA 模型 分 


析 专 利文 本 构成 的 语料库 ， 如 对 专利 领域 技术 
言 息 进行 主题 划分 、 测 量 与 分 析 专 利 丛 林 “ 
挖掘 专利 领域 的 技术 及 其 继承 关系 UT, 5) 28 


是 根据 特定 的 分 析 目 的 或 专利 信息 的 结构 特征 


对 LDA 模型 进行 改进 或 拓展 ， 如 构建 基于 SAO 
结构 、P&S 模式 的 LDA 主题 模型 中， 提出 结合 
LDA 和 HMM 的 组 合 方 法 中 ,构建 基于 IPC 和 
WI 结构 的 WI-LDA 模型 外 等 ,分析 某 一 专利 
领域 的 技术 主题 分 布 ， 识 别 和 预测 专利 领域 的 


核心 技术 、 演 化 规律 及 未 来 趋势 。 


2.4 文献 述评 


已 有 文献 中 , 关于 专利 技术 主题 的 分 析 ， 


多 将 专利 文本 视 为 统一 整体 进行 文本 挖掘 ， 


或 者 按照 专利 标题 、 专 利 关 键 词 、 专 利 正文 
等 不 同 视 角 ， 进 行 主题 挖 据 ， 较 少 结合 专利 
的 产业 链 特性 进行 技术 主题 分 析 。 而 关于 产 
业 链 视角 下 的 相关 专利 分 析 ， 在 产业 链 构建 


方面 均 是 通 


过 经 验 判断 等 定性 研究 方法 进行 


专利 挖掘 ， 且 多 从 专利 数量 、 专 利 类 型 、 地 
域 分 布 、 核 心 申请 主体 等 角度 出 发 ， 进 行 专 
利 分 布 研究 ， 未 结合 专利 文本 进行 技术 主题 
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的 深度 挖 气 。 在 此 背景 下 ， 本 人 研究 从 产业 链 
视角 出 发 ， 以 VR 技术 为 例 ， 利 用 专利 的 IPC 
分 类 号 构建 专利 产业 链 ， 并 通过 K-means 聚 
类 验证 产业 链 ， 能 够 为 专利 领域 产业 链 研 究 
提供 新 的 研究 视角 ; 基于 产业 链 语 料 库 ， 采 
JH TF-IDF 算法 和 LDA 主题 模型 ,深度 挖 气 
中 国 VR 领域 的 专利 技术 主题 、 技 术 热 点 与 发 
展 趋势 ， 能 够 为 专利 领域 技术 研究 提供 新 的 
研究 思路 、 为 VR 领域 扩展 研究 内 容 。 
Quse 
3.4 研究 框架 

以 中 国 VR 专利 的 相关 数据 为 原始 语料库 ， 
在 归并 处 理 、 噪 音 清 除 、 加 工分 组 等 数据 清洗 
的 基础 上 ， 得 到 有 效 专利 语料库 。 基 于 有 效 语 
料 库 ， 进 行文 献 调研 和 专家 咨询 ， 利 用 专利 的 
IPC 分 类 号 和 K-means 聚 类 算法 ， 构 建 并 验证 
VR 专利 产业 链 ， 得 到 基于 IPC 编码 和 聚 类 的 产 
业 链 语料库 。 基于 产业 链 语料库 , 进行 文本 分 析 ， 
利用 TF-IDF 算法 计算 关键 词 权重 ， 利 用 LDA 
主题 模型 挖掘 各 环节 的 技术 主题 及 主题 词 权 重 ， 
识别 产业 链 视角 下 的 核心 技术 主题 及 其 主题 强 
度 ， 分 析 中 国 VR 专利 的 技术 研发 热点 和 未 来 
趋势 。 具 体 研 究 框架 如 图 1 所 示 : 


数据 采集 与 
预 处 理 


技术 主题 挖掘 


ed mu^ | ol 原始 语料库 | 可 | 归并 有 效 专利 语料库 
"p 基于 产业 链 划 分 通过 K-means 聚 类 基于 IPC 分 类 号 
产业 链 语料库 一 一 下 VR 专利 文本 C4 | 验证 专利 产业 链 I] 构建 专利 产业 链 
基于 TF-IDF 算 法 基于 LDA 模 型 通过 权重 计算 识别 专利 -技术 -主题 的 
安 据 技术 关键 词 [| FHRBORSUNGR [| 主题 综合 强度 与 热点 | | ”发 展 趋势 分 析 


与 趋势 分 析 
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32 数据 采集 

本 文 的 目标 数据 库 确定 为 国家 知识 产权 局 
的 官方 专利 检索 系统 ， 检 索 式 设 定 为 : 发 明 名 
FK =( 虚拟 现实 OR VR OR virtual reality) OR 摘 
要 =( 虚拟 现实 OR VR OR virtual reality) OR 关 
ftis] =( 虚拟 现实 OR VR OR virtual reality), £5 
索 时 间 为 2019 4E 5 H 10 日 , 在 过 滤 条 件 中 勾 选 
“有 效 专利 ” 复 选 框 ,获得 有 效 专 利 14 372 件 。 
目前 中 国 常用 的 专利 信息 源 包括 : 中 华人 民 共 
和 国 国 家 知识 产权 局 的 官方 专利 检索 系统 、 国 
家 知识 产权 出 版 社 主 办 的 中 国 知识 产权 网 的 专 
利 检索 系统 、 中 国 专利 信息 网 专利 检索 系统 、 
北京 市 经 济 信息 中 心 易 信 网 的 专利 检索 系统 等 
"。 其中， 国家 知识 产权 局 的 官方 专利 检索 系 
统 是 检索 中 国 专利 的 官方 网 站 , 最 具有 权威 性 ， 
其 数据 收录 主体 范围 涵盖 广泛 ， 收 录 数 据 信息 
类 别 全 面 ， 数 据 更 新 频率 较 高 且 更 新 时 间 具 有 
周期 性 和 规范 性 。 
3.3 数据 清洗 

对 检索 得 到 的 专利 数据 进行 去 重 、 筛 选 和 
加 工 ， 简 要 说 明 如 下 : 中 归并 处 理 。 对 同一 专 
利 权 人 在 不 同 的 专利 记录 中 可 能 登记 有 不 完全 
相同 的 名 称 ， 进 行 归并 处 理 。 四 噪音 清除 。 阅 
读 并 删除 与 所 检 主 题 不 相关 的 专利 数据 ， 对 语 


表 1 随机 列举 4 条 专利 摘要 原文 及 其 对 应 的 分 词 结果 
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料 库 依次 进行 大 小 写 转换 、 去 标点 、 去 数 词 等 
去 品 处 理 。(3) 加 工分 组 。 根 据 专利 固有 格式 与 
领域 特点 ， 对 采集 的 数据 进行 加 工 、 分 组 ， 建 
立 符合 研究 需要 的 专题 子 数据 库 "。 最 终 确定 
12 380 件 专利 数据 用 于 构建 VR C 虚拟 现实 ) 领 
域 有 效 专 利 语料库 。 

其 中 ， 去 噪 是 尤为 关键 的 环节 ， 主 要 包括 
分 词 和 去 停 用 词 两 部 分 。 据 此 ， 本 文 将 专利 摘 
要 内 容 整合 在 TXT 文档 中 作为 文本 信息 ,在 
Python 语言 环境 下 ， 对 每 一 条 摘要 数据 进行 分 
词 、 去 除 停 用 词 。 分 词 使 用 Python 中 的 专业 分 
词 模块 jieba， 选 择 精 准 模式 将 句子 尽 可 能 精确 
Ur. 并 将 “外 观 设 计 ”“ 实 用 新 型 ”“ 发 明 
专利 ”等 具有 代表 性 意义 的 词组 添加 到 自 定义 
词典 , 避免 关键 词汇 被 拆 分 , 影响 后 续 文 本 分 析 。 
分 词 完 成 后 利用 停 用 词 表 将 分 词 后 的 数据 进行 
进一步 的 清洗 ， 过 滤 分 词 结果 中 的 噪声 。 自 定 
义 的 主要 停 用 词 包 括 “ 虚拟 现实 ”“VR”( 因 
本 文 研究 虚拟 现实 领域 专利 ， 为 避免 “虚拟 现 
SE" "VR" 出 现 频率 过 高 影响 其 他 高 频 词 的 凸显 ， 
故 将 其 停 用 ) "Bre" "ERU "Bia" "HETC "8 
K WR IPO "建立 ” “选择 ”“ 要 点 ”“ 特 
征 ”“ 连 接 ”“ 之 间 ”“ 步 又” 等 ， 表 1 随机 
列举 了 4 条 专利 摘要 原文 及 其 对 应 的 分 词 结 


专利 摘要 原文 分 词 结果 
在 灯 黑 未 与 灯 杆 车 合 时 ,做 台灯 使 用 , 释 合 后 灯 单 的 透明 窗 CAO Ra TER TT RE H AN RA TE AN 窗 部 位 
又 可 做 夜 灯 使 用 WC 夜 灯 


本 外 观 设计 产品 是 一 种 卡通 玩偶 台灯, 在 灯罩 未 与 灯 杆 过 合 时 ,做 台灯 


使 用 ; 一 合 后 灯 单 的 透明 窗 又 可 做 夜 灯 使 用 
虚拟 现实 头盔 的 前 端 与 图 像 显 示 眼 镜 连 接 


MA 


本 实用 新 型 涉及 一 种 视点 平移 的 虚拟 空间 实景 视频 图 像 生成 装置 , 属 ”实用 新 型 涉及 视点 平移 虚拟 空间 实景 视频 图 像 生 


于 多 媒体 虚拟 现实 技术 领域 


3.4 研究 指标 

专利 情报 分 析 是 在 对 专利 情报 进行 筛选 、 
整理 的 基础 上 ， 利 用 统计 方法 和 手段 ， 对 其 中 
所 含 的 各 种 情报 要 素 进行 统计 、 排 序 、 对 比 、 
分 析 和 研究 , 从 而 了 解 技术 发 展 的 过 去 和 现状 。 
通常 来 说 ， 专 利 情 报 分 析 主 要 有 两 种 : 定量 分 


外 观 设计 产品 卡通 玩偶 台灯 TE R TIT EA 
做 台灯 RA EDS 透明 窗 做 夜 灯 
头盔 前 端 图 像 显示 眼镜 连接 


成 装置 多 媒体 虚拟 现实 技术 领域 


析 和 定性 分 析 。 定 量 分 析 是 指 对 专利 文献 的 外 
部 特征 按照 指定 的 指标 进行 统计 ， 再 对 收集 到 
的 数据 进行 解释 和 分 析 ; 定性 分 析 则 是 通过 对 
专利 的 内 容 进行 技术 归纳 ， 得 出 有 效 的 分 类 和 
结论 2。 本 文 的 专利 研究 指标 及 其 作用 具体 如 
K 2 Bp: 
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表 2 产业 链 视角 下 的 专利 指标 分 析 表 
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专利 分 析 目 的 


专利 分 析 类 型 专利 分 析 指 标 
技术 关键 词 挖 气 
a 技术 主题 词 挖掘 
技术 主题 挖掘 与 c ZA 
$ 定性 + 定量 
趋势 分 析 技术 主题 强度 分 析 
技术 发 展 趋 势 分 析 


O 结合 IPC 分 类 号 和 -means 算法 
的 VR 专利 产业 链 分 析 


已 有 文献 在 构建 产业 链 方面 均 是 基于 人 为 
定义 、 解 读 ， 划 分 上 中 下 游 各 个 环节 。 本 文 则 
是 将 VR 相关 的 全 部 专利 检索 获得 后 进行 数据 
清洗 (保证 了 专利 产业 链 的 检 全 率 ) ， 基 于 IPC 
分 类 号 划分 上 中 下 游 ， 并 基于 KK-means 算法 进 
行 上 中 下 游 的 二 次 验证 (保证 了 专利 产业 链 的 
准确 率 ) 。 

4.1 基于 IPC 分 类 号 的 专利 产业 链 构 建 

依据 文献 调研 、 专 家 咨询 和 专利 的 IPC 分 
类 号 ， 将 虚拟 现实 产业 链 分 为 工具 /设备 设计 、 
内 容 制作 、 行 业 应 用 。 在 此 基础 上 ， 选 取 专 利 


识别 产业 链 各 环节 的 技术 关键 词 
掌握 该 行业 和 竞争 对 手 的 技术 研发 侧重 点 


通过 综合 主题 强度 和 各 主题 的 强度 分 布 ， 识 别 研发 热点 


识别 产业 链 各 环节 的 专利 -主题 -技术 领域 的 未 来 趋势 


的 IPC 分 类 号 作为 语义 情景 的 限定 ， 为 所 有 专 
利 赋予 产业 链 语 义 。 在 提取 IPC 分 类 号 时 ， 不 
同 的 IPC 层级 会 产生 不 同 的 聚 类 效果 。 基 于 IPC 
大 类 的 划分 过 于 粗 泛 ， 聚 类 效果 不 明显 ; 基于 
IPC 大 组 的 划分 过 于 密集 ， 同 样 不 适合 聚 类 ; 而 
基于 IPC 小 类 的 划分 ， 能 够 在 区 分 度 明显 的 基 
础 上 保证 规模 不 过 于 巨大 ， 因 而 最 终 选 定 以 主 
IPC 分 类 号 小 类 作为 语言 情景 的 限定 。 为 了 研究 
过 程 的 简易 性 及 结果 展示 的 直观 性 ， 将 专利 数 
据 涉 及 的 产业 链 与 IPC 小 类 进行 编码 ， 部 分 编 
码 分 布 情况 如 表 3 所 示 。 其 中 , 产业 链 上 游 为 “ 工 
有 具 /设备 设计 ”， 产 业 链 中 游 为 “内 容 制 作 ”， 
产业 链 下 游 为 “行业 应 用 ”。 


表 3 中 国 虚拟 现实 领域 产业 链 与 IPC 小 编码 分 布 情况 ( 部 分 ) 


E MT M TR 技术 领域 信义 Pes 
GO6K 数据 识别 ;数据 表示 ; 记录 载体 ; 记录 载体 的 处 理 152 
de x su 备 " G02B ipsi 141 
H04J 多 路 复 用 通信 194 
H05K Lor re AUTRE. 电气 元 件 组 件 的 制造 204 
A47C 椅子 15 
B43L 书写 或 绘图 用 品 ， 书写 或 绘图 辅助 用 品 53 
中 游 内 容 制作 02 CI2C 啤酒 的 酿造 83 
D03D 机 织 织物 ; 织造 方法 ; 织 机 86 
F16P 一 般 安 全 装置 115 
A61C 牙科 ; 口腔 或 牙齿 卫生 的 装置 或 方法 20 
下 游 行业 应 用 03 A63B WEBB. URER. UfOK. Feng: hn dep. 球 类 ; 训练 器 械 —— 30 
E04B 一般 建 筑 物 构造 ， 墙 ， 例 如; 间 壁 墙 ， 屋 项， 楼板; 顶棚; 建筑 物 ”94 


的 隔绝 或 其 他 防护 
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42 AMET ASIE EAAS UE 

研究 采用 K-means 算法 验证 已 构建 的 专利 
产业 链 。 首 先 ， 合 并 “同类 关键 词 ”。 通 过 人 
工 观察 ,将 包含 “本 发 明 ”“ 本 发 明 专利 ”“ 本 
专利 ”等 数据 的 关键 词 ， 统 一 合并 为 “发 明 专 
利 ”。 其 次 ， 采 用 K-means 算法 中 的 欧 氏 距离 
来 计算 数据 对 象 间 的 距离 。 根 据 相 似 性 原则 ， 
将 具有 较 高 相似 度 的 数据 对 象 划 分 至 同一 类 艇 ， 
将 具有 较 高 相 异 度 的 数据 对 象 划分 至 不 同类 簇 。 

VR 专利 摘要 文本 的 K-means 聚 类 效果 如 图 
2 所 示 。 依 据 产业 链 的 分 类 特性 和 已 有 关于 产业 
链 划 分 的 研究 文献 可 知 ， 专 利 产 业 链 通常 划分 
为 上 、 中 、 下 3 类 中 或 基础 、 技 术 、 应 用 3 类 
DUM 据 此 ， 研 究 将 类 簇 个 数 K 值 设 定 为 3, 将 
专利 文本 聚集 成 3 类 主题 。 从 图 2 中 可 以 看 到 3 
个 类 艇 有 效 地 分 隔 开 来 ， 相 似 主题 的 文献 聚集 
在 一 起 ， 文 本 聚 类 效果 较 好 。 其 中 黄色 表示 “ 工 
具 / 设 备 设计 ”主题 , 紫色 表示 “行业 应 用 ”主题 ， 
绿色 表示 “内 容 制作 ”主题 ; 旦 “工具 /设备 设 
计 ” 专 利 聚 类 数量 >“ 行 业 应 用 ”专利 聚 类 数 
量 >“ 内 容 制 作 ” 专 利 聚 类 数量 。 观 察 聚 类 结 
果 可 知 ，“ 工 具 ”“ 设 备 ” 等 关键 词 聚 为 一 类 ， 
划分 至 “工具 /设备 设计 ”专利 类 别 ; “游戏 生 
产 ”“ 声 音 生产 ”“ 视 频 生 产 ” 等 关键 词 聚 为 一 类 ， 
划分 至 “内 容 制 作 ” 专 利 类 别 ; “医疗 应 用 ”“ 教 
育 应 用 ”“ 旅 游 应 用 ”等 关键 词 聚 为 一 类 ， 划 
分 至 “行业 应 用 ”专利 类 别 。 基 于 关键 词 聚 类 
的 VR 专利 产业 链 验证 结果 ， 与 上 文中 基于 IPC 
分 类 号 的 VR 专利 产业 链 构 建 结 果 具 有 一 致 性 。 
据 此 ， 根 据 产业 链 的 构建 和 验证 结果 ， 对 中 国 
VR 专利 进行 分 类 ， 构 建 产 业 链 语料库 。 


图 2 K-means 专利 文本 聚 类 图 
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Q 产业 链 视角 下 中 国 VR 专利 的 技 
术 主 题 与 趋势 分 析 


5.1 基于 TF-IDF 算法 的 技术 关键 词 挖掘 

为 了 避免 LDA 主题 分 析 抽 取出 的 特征 词汇 
不 具 主 题 代表 性 ， 人 研究 首先 使 用 TF-IDF 算法 对 
所 得 词汇 赋予 不 同 权 重 ， 有 效 过 滤 和 常见 词汇 ， 
保留 重要 词汇 ， 进 而 提高 主题 特征 词 的 抽取 准 
确 率 。TF-IDF 是 一 种 计算 词语 权重 的 经 典 统计 
方法 ， 由 词 频 (term frequency, TF) 和 逆向 文档 
频率 (inverse document frequency, IDF) 两 部 分 
数据 组 成 。TF-IDF 的 计算 如 公式 (1 ) 所 示 , 其 中 ， 
tj 代表 词语 wi 在 文档 4 中 出 现 频率 ，idf 代表 
词语 wi 在 文本 库 d 中 的 逆向 文档 频率 。 通 过 公 
式 可 以 看 出 ,词语 w 对 文档 的 重要 程度 和 它 
在 文档 4 中 出 现 的 频率 成 正比 ， 和 它 在 整个 文 
本 库 d, 中 包含 词语 w 的 文档 数 成 反比 。 

tfi. ;xidfi 
JY wed[if. iid] AR C1) 

依照 产业 链 语料库 数据 和 编码 分 词 ， 在 
Python 中 提取 摘要 文本 关键 词 ; 整合 相似 的 文 
本 数据 ， 删 除 无 实际 作用 的 字段 ， 根 据 TF-IDF 
算法 计算 关键 词 权 重 。TF-IDF 算法 是 通过 计算 
特征 词 在 整个 文本 库 中 出 现 的 总 频率 ， 从 而 标 
记 出 关键 词 的 重要 程度 。 产 业 链 各 环节 中 国 VR 
专利 摘要 文本 的 高 频 关键 词 及 权重 计算 结果 如 
表 4 所 示 , 可 以 看 出 “发 明 专 利 ” 类 型 在 产业 链 上 、 
中 、 下 游 的 比重 均 较 大 。 此 外 ， 产 业 链 上 游 “ 工 
具 /设备 设计 ”中 “发 明 专 利 ” 类 型 占 比 较 大 ， 
产业 链 中 游 “内 容 制 作 ” 中 “外 观 设计 ”类 型 
专利 占 比较 大 ， 产 业 链 下 游 “ 行 业 应 用 ”中 “ 实 
用 新 型 ”类 型 专利 占 比 较 大 。 
5.2 基于 LDA 模型 的 技术 主题 词 挖掘 

在 基于 LDA 模型 的 主题 挖掘 中 ， 最 佳 主题 
数目 的 确定 是 最 为 关键 的 一 步 ， 本 文 使 用 Gibbs 
采样 的 方法 推 新 LDA 模型 中 所 涉及 的 多 个 分 布 。 
首先 ， 充 分 参考 虚拟 现实 产业 链 环节 数量 后 , 将 
各 个 环节 的 输出 主题 数目 初步 确定 为 3-10 个 ， 
XF LDA 模型 进行 训练 。 其 次 ， 通 过 计算 模型 困 


tf — idfi. ; = 
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惑 度 Perplexity 来 判断 模型 的 好 坏 ， 从 而 确定 该 
模型 的 最 佳 参数 ， 即 使 用 不 同 数量 的 主题 分 别 
建 模 ， 随 机 将 语料库 划分 为 训练 集 与 测试 集 ， 
训练 集 和 测试 集 比例 为 8:2。 最 后 ， 通 过 计算 困 
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RRE 10 次 结果 的 平均 值 将 产业 链 上 游 的 最 佳 主 
题 数 目 确定 为 4 个 ， 将 产业 链 中 游 的 最 佳 主题 
数目 确定 为 3 个， 将 产业 链 下 游 的 最 佳 主题 数 
目 确定 为 7 个 。 


上 游 关 键 词 TF-IDF 权 重 中 游 关键 词 
发 明 专 利 0.433 685 602 外 观 设 计 
视图 0.298 644 789 模块 
装置 0.193 443 350 图 像 
设备 0.104 926 572 DE 
TA 0.090 669 127 系统 
ATE 0.090 018 305 P 
俯视 图 0.083 199 331 发 明 专利 
连接 0.081 526 927 H 
游戏 0.081 252 223 装置 
仰视 0.079 616 895 显示 
软件 系统 0.075 799 232 仿真 

显示 器 


TF-IDF 权 重 下 游 关 键 词 TF-IDF 权 重 
0.154 538 305 实用 新 型 0.146 471 830 
0.105 986 349 设备 0.101 432 055 
0.096 887 133 发 明 专利 0.096 677 809 


0.082 635 769 模块 0.093 789 460 
0.076 838 141 连接 0.089 111 996 
0.072 846 204 民 镜 0.085 453 807 
0.069 709 442 a 0.085 028 156 
0.065 064 784 图 像 0.073 168 758 
0.064 204 349 装置 0.073 157 422 
0.060 203 497 场景 0.070 251 633 
0.059 405 618 设置 0.064 731 162 
0.057 281 859 固定 0.052 306 909 


显示 器 0.074 215 894 现实 


通过 充分 了 解 该 领域 的 技术 知识 ， 对 中 国 
虚拟 现实 领域 专利 进行 技术 主题 标注 ， 确 定 主题 
名 称 。 某 种 程度 上 ， 使 用 LDA 主题 模型 挖掘 到 
的 主题 可 视 为 从 技术 链 角 度 对 虚拟 现实 技术 进行 
细 分 ， 如 表 5 所 示 。 由 表 5 可 以 看 出 ， 每 个 主题 
之 间 的 区 分 非常 明显 。 产 业 链 上 游 一 一 “工具 / 
设备 设计 ”的 4 个 主题 分 别 为 输入 设备 、 显 示 设 
备 、 拍 摄 设备 、 软 件 ; 产业 链 中 游 一 一 “内 容 制 
作 ” 的 3 个 主题 分 别 为 影视 、 声 音 、 游 戏 ; 产业 
链 下 游 一 一 “行业 应 用 ”的 7 个 主题 分 别 为 房 地 
产 、 旅 游 、 工 业 、 军 事 、 医 疗 、 教 育 、 娱 乐 。 
5.3 产业 链 视角 下 的 技术 主题 强度 与 热点 分 析 
经 文献 研究 与 小 组 讨论 认为 ， 产 业 链 视角 
下 技术 主题 强度 的 衡量 指标 主要 包括 : 产业 链 各 
环节 的 专利 数量 权重 与 专利 文档 概率 。 其 中 ， 产 
业 链 各 环节 的 专利 权重 为 上 、 中 、 下 游 专 利 数量 
在 总 专利 数量 中 的 占 比 ， 文 档 概 率 为 上 、 中 、 下 
游 产 业 链 视角 下 各 主题 的 隶属 概率 值 。 产 业 链 视 


角 下 各 技术 主题 的 综合 强度 计算 如 公式 (2 ) 所 示 : 


Nip i. Nip 
TI, =| LDA* —; LDAn 
23 Nip íl $a Hip 
Au) 
TI, 为 第 ;个 主题 的 综合 强度 。 其 中 ,， 为 专 
利 的 15 个 主题 (i1, 2,3, eee , 14), pH 


这 14 个 主题 分 别 对 应 的 三 个 产业 链 环节 (p=1， 
2, 3) o LDA; 为 第 ;个 主题 的 LDA 权重 值 ，ny 
为 第 i 个 主题 所 对 应 的 第 疡 个 产业 链 环节 的 专利 


数量 ，-_ 人 为 第 p 个 产业 链 环 节 的 专利 数量 
PP 
LDA" — 

权重 值 ; > nz 为 第 ;个 主题 的 LDA 权 


重 值 与 其 所 对 应 的 第 p 个 产业 链 环 节 的 专利 数 
量 权 重 值 之 乘积 。 

根据 LDA 模型 提取 的 权重 值 ， 结 合 产业 
链 各 环节 的 专利 数量 ， 计 算出 产业 链 视角 下 
各 技术 主题 的 综合 强度 分 布 ， 结 果 如 表 6 所 
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表 5 LDA 模型 主题 词 识别 结 


产业 链 主题 主题 词 (隶属 概率 值 ) 
给 入 设备 输入 (0.072) 、 主 机 (0.062) 、 游 戏 (0.037) 、 显 示 器 (0.032) 、 穿 戴 (0.029) 、 应 用 ( 0.028) 、 
姿态 (0.028) | AXB (0.027) ...... 
工具 显示 设 各 图 像 〈0.015) 、 显 示 (0.014) 、 模 块 (0.014) 、 数 据 (0.011) 、 信 息 〈0.012) 、 用 户 (0.011) ~ 
Lm / 设 一 个 ZR (0012 、 设 备 ( 0.015) ...... 
设计 Aito o N . uH 
" 拍摄 设备 “对象 (0.067)、 交 互 (0.041)、 配 置 (0.036)、 影 像 (0.021)、 视 频 (0.019)、 图 像 处 理 C0.017) ...... 
软件 通信 (0.072)〉 、 光 学 (0.123) 、 处 理 器 (0.106) 、 本 体 (0.047) 、 存 储 (0.044) 、 识 别 (0.024). 、 
é 无 线 连 接 (0.019) ...... 
电影 (0.036) 、 装 置 (0.031) 、 场 景 (0.029) 、 图 像 (0.028) 、 显 示 (0.0260 、 影 视 (0.025) 、 
WM 屏幕 (0.023) 
中 游 ” 内 容 GODO 
生产 ”制作 声音 。 ”拍摄 (0.027) 、 声 音 (0.017) 、 物 体 〈0.016) 、 传 感 器 (0.014) .……. 


游戏 外 观 设计 (0.063)、 游戏 (0.013)、 眼 镜 (0.028) 、 手 柄 (0.026)、 体验 (0.014)、 立体 图 (0.056)...... 
房地产 。 房地产 (0.034) 、 房 地 产 楼 盘 展 示 (0.0280 、 房 地 产 三 维 仿真 展示 (0.027) ...... 
旅游 文化 旅游 (0.075)、 旅游 系 统 (0.041)、 模拟 旅游 (0.035)、 智能 旅游 (0.033)、 智 能 导游 (0.023)..…….. 


业 业 设 备 (0.021) 、 工 业 自动 化 (0.0150. 、 工 业 制 造 〈0.014) 、 喷 涂 工 业 机 器 人 (0.013) ...... 
es is 军事 虚拟 军事 训练 〈0.033) 、 军 事 演习 〈0.033) 、 仿 真 枪 〈0.032) 、 仿 真 飞机 驾驶 舱 〈0.028) .……. 
医疗 医疗 手术 模拟 〈0.072) 、 医 疗 教学 (0.0540 、 远 程 医疗 (0.054) 、 医 疗 辅助 (0.042) ...... 
教育 教育 模拟 (0.134)、 预 测 教育 (0.077)、 远 程 教育 (0.053)、 安 全 教育 (0.047)、 智 慧 教育 (0.042 ) .…… 
娱乐 互动 娱乐 (0.065) 、 健 身 〈0.046) 、 虚 拟 朋友 (0.042) 、 飞 行 影院 〈0.035) ...... 
表 6 VR 产业 链 各 环节 技术 主题 的 强度 分 布 
产业 链 主题 编号 主题 LDA 权 重 * 专 利 数量 权重 综合 主题 强度 
上 游 -工具 /设备 设计 Topicl 输入 设备 0.339 469 444 0.242 395 259 
Topic2 显示 设备 0.123 443 434 0.088 143 730 
Topic3 拍摄 设备 0.241 743 392 0.172 614 805 
Topic4 软件 0.419 193 329 0.299 321 418 
中 游 - 内 容 制作 Topic5 影视 0.012 320 067 0.008 797 039 
Topic6 声音 0.006 726 474 0.004 802 981 
Topic7 游戏 0.008 956 831 0.006 395 548 
下 游 -行业 应 用 Topic8 房地产 0.028 126 076 0.020 083 185 
Topic9 旅游 0.039 397 977 0.028 131 789 
Topic10 工业 0.015 136 552 0.010 808 126 
Topicll 军事 0.030 380 456 0.021 692 906 
Topic12 医疗 0.040 149 437 0.028 668 363 
Topic13 教育 0.053 890 421 0.038 479 995 
Topic14 娱乐 0.041 545 006 0.029 664 857 


142 


202310.03030v1 


chinaXiv 


示 。 由 表 6 的 综合 主题 强度 可 知 ， 上 游 “ 工 
具 /设备 设计 ”产业 链 的 强度 最 大 ， 是 当前 最 
热门 的 研究 领域 ; 其 次 是 下 游 “行业 应 用 ”， 
也 是 中 国 VR 领域 研发 的 共同 关注 焦点 ; 最 后 
是 中 游 “内 容 制 作 ” 产 业 链 ， 是 中 国 VR 领域 
人 研发 的 注 弱 环节 。 从 表 6 所 示 的 各 技术 主题 
强度 分 布 来 看 ， 在 “工具 /设备 设计 ”环节 ， 
人 研发 热点 集中 在 Topic4 软件 研发 和 Topicl 输 
入 设备 ; 在 “内 容 制作 ”环节 ， 研 发 热点 集 
中 在 Topic5 影视 ; 在 “行业 应 用 ”环节 ， 研 
发 热点 集中 在 Topic12 医疗 、Topic13 教育 、 
Topic14 娱乐 。 
5.4 产业 链 视 角 下 的 技术 发 展 趋势 分 析 

基于 产业 链 语 料 库 中 的 IPC 编码 ， 统 计 分 
析 了 中 国 VR 专利 的 热点 技术 领域 ， 部 分 统计 
结果 如 表 7 所 示 。 结 合 表 7 的 专利 热点 技术 领 
域 以 及 表 6 的 VR 产业 链 各 环节 技术 主题 的 强 
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度 分 布 ， 可 以 分 析出 未 来 5-10 年 中 国 VR 专利 
的 发 展 趋 势 。 具 体 体 现在 : OPH VR 专利 研 
发 在 产业 链 各 个 环节 均 会 旦 上 升 趋势 ， 且 上 游 
研发 与 中 、 下 游 研 发 之 间 的 增长 幅度 会 渐渐 趋 
于 一 致 , 三 者 之 间 的 专利 数量 差距 会 缓慢 减 小 。 
@) 热 点 研发 环节 仍 会 集中 在 上 游 的 “工具 / 设 
备 设计 ”， 且 以 G06 (计算 ; 推算 ; 计数 ) 、 
G02 (光学 ) 、H04 ( 电 通 信 技 术 ) 等 技术 领域 
为 主流 。@@ 产 业 链 下 游 的 “行业 应 用 ”人 研发 环 
节 将 会 呈 迅 猛 增长 态势 , 目 以 A63( 运动; 游戏 ; 
娱乐 活动 ) 、A61 ( 医学 或 兽医 学 ; 卫生 学 ) 、 
E04 (建筑 物 ) 等 技术 领域 为 主流 。@ 产 业 链 中 
游 的 “内 容 制作 ”作为 薄弱 研发 环节 会 保持 组 
慢 上 升 ， 且 以 B60 (一 般 车 辆 ) 、F16 (工程 元 
件 或 部 件 ; 为 产生 和 保持 机 器 或 设备 的 有 效 运 
行 的 一 般 措 施 ) 、B64( 飞行 器 ; 航空 ; 宇宙 航行 ) 
等 技术 领域 为 主流 。 


表 7 中 国 VR 专利 热点 技术 领域 

IPC 大 类 技术 领域 含义 对 应 产业 链 专利 数量 / 件 比例 /% 
G06 计算 ; 推算 ; 计数 上 游 3 991 38.61 
G02 光学 上 游 1720 16.64 
H04 Bal fe Lii 1129 10.92 
A63 运动 ; 游戏 ; 娱乐 活动 下 游 675 6.53 
A61 医学 或 兽医 学 ; 卫生 学 下 游 319 3.08 
E04 建筑 物 下 游 74 0.02 
B60 一 般 车 辆 中 游 120 1.16 
aie TEER ; a EONSURNINE 中 游 T. NT 
B64 rues; 航空 ;宇宙 航行 中 游 27 0.03 

@ 结 论 与 展望 数量 > 下 游 应 用 端 专利 聚 类 数量 > 中游 生 产 端 


6.1 研究 结论 

人 研究 主要 得 出 以 下 几 个 方面 的 结论 : 

(1) 在 产业 链 的 构建 与 验证 方面 ， 结 合 
IPC 分 类 号 K-means 聚 类 的 定性 和 定量 分 析 可 
知 ， 中 国 VR 专利 的 上 游 材 料 端 为 “工具 /设备 
设计 ”， 中 游 生产 端 为 “内 容 制作 ”， 下 游 应 
用 端 为 “行业 应 用 ”; 且 上 游 材料 端 专 利 聚 类 


专利 聚 类 数量 。 此 外 ,不 仅 在 专利 数量 方面 ， 
而 且 在 专利 文本 挖掘 方面 ， 目 前 中 国 VR 行业 
更 加 注重 上 游 产 业 端 专利 ， 且 上 游 专 利和 中 、 
下 游 专利 之 间 的 差距 较 大 ， 产 业 链 各 环节 的 专 
利 比 例 不 均衡 。 

(2) 在 研发 主题 分 布 方面 ， 结 合 VR 产业 
链 语料库 的 TF-IDF 关键 词 权 重 值 、LDA 概率 
权重 值 可 知 ，“ 发 明 专 利 ” 类 型 在 产业 链 上 、 
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中 、 下 游 的 比重 均 较 大 。 此 外 ， 上 游 研 发 主题 
包括 输入 设备 、 显 示 设 备 、 拍 摄 设 备 、 软 件 等 
工具 /设备 ， 其 中 “发 明 专利 ”类 型 占 比较 大 ; 
中 游 研 发 主题 包括 影视 、 声音、 游戏 等 内 容 制作 ， 
其 中 “外 观 设计 ”类 型 占 比 较 大 ; 下 游 研 发 主 


ChinaXiv 合 作 期 刊 


动 一 一 利用 小 型 运动 物体 的 室内 游戏 ) 、A61B 
( 医学 或 兽医 学 ; 卫生 学 一 一 诊断 ; 外 科 ; 鉴 
定 ) 、E04H (建筑 物 一 一 专门 用 途 的 建筑 物 或 
类 似 的 构筑 物 ) 等 领域 ; 产业 链 中 游 “内 容 制 
作 ” 的 具体 技术 人 研发 趋势 为 B60R( 一 般 车 辆 一 一 


题 包括 房地产 、 旅 游 、 工 业 、 军 事 、 医 疗 、 教 育 、 
娱乐 等 行业 应 用 ， 其 中 “实用 新 型 ”类 型 占 比 
较 大 。 

(3) 在 主题 强度 与 研发 热点 挖掘 方面 ， 结 
合 产 业 链 视角 下 各 主题 的 研发 强度 可 知 : 综合 
主题 强度 中 ， 上 游 是 当前 最 热门 的 研究 链 ， 其 
次 是 下 游 产 业 链 ， 最 薄弱 的 是 中 游 产 业 链 ， 这 


与 PC 分 类 号 、K-means 聚 类 结果 相 一 致 ， 进 


不 包含 在 其 他 类 目 中 的 车 辆 、 车 辆 配件 或 车 辆 
WWE). 、B64D (飞行 器 ; 航空 ; 宇宙 航行 
用 于 与 飞机 配合 或 装 到 飞机 上 的 设备 ;飞行 衣 ; 
降落 使 ; 动力 装置 或 推进 传动 装置 的 配置 或 安 
装 ) 、F16F (工程 元 件 或 部 件 一 一 弹簧; WE de 
减 振 装置 ) 等 领域 。 

(5) 研究 虽然 是 以 VR 专利 领域 为 例 进行 
实证 分 析 ，, 但 相关 研究 思路 、 研 究 框 架 和 研究 


步 验证 了 研究 结果 的 科学 性 。 此 外 ， 从 各 技术 
主题 的 强度 分 布 来 看 ， 上 游 研发 热点 为 输入 设 
备 和 软件 ， 诸 如 “信息 输入 设备 ”“ 数 据 输入 
设备 ”“ 客 户 端 输入 设备 ”等 ; 中游 研 发 热点 
为 影视 ,诸如 “VR 高清 立体 影视 柔性 传输 线 ”"“ 用 
于 虚拟 现实 影视 制作 的 稳 拍 系统 ”“VR 影视 拍 
摄 履带 车 ”“ 用 于 播放 3D 影视 的 VR 眼镜 ”等 ; 
下 游 研 发 热点 为 医疗 、 教育、 娱乐 , 医疗 诸如 "3E 
于 VR 技术 的 医疗 手术 模拟 仿真 系统 ”“ 基 于 虚 
拟 现实 的 医疗 设备 操控 系统 ”“ 基 于 虚拟 现实 
的 医疗 设备 演示 系统 ”等 ， 教 育 诸如 “基于 VR 
技术 的 小 学 生 科技 教育 系统 ”“ 基 于 VR 和 动作 
捕捉 的 远程 教育 系统 ”“VR 安全 教育 动感 座 椅 ” 
等 , 娱乐 诸如 “三 自由 度 虚 拟 现实 游乐 设备 ”“ 基 
于 真实 球拍 的 协同 式 增强 现实 乒乓 球 系统 ”“ 虚 
拟 与 现实 有 机 结合 的 开心 农场 及 实现 方法 ”等 。 

(4) 在 技术 发 展 趋势 方面 ， 中 国 VR 专利 
研发 在 产业 链 各 个 环节 均 会 旦 上 升 趋势 ， 且 上 
游 研发 与 中 、 下 游 研发 之 间 的 专利 差距 会 缓慢 
减 小 。 通 过 进一步 细 分 的 IPC 分 类 号 可 知 ， 产 
业 链 上 游 “工具 /设备 设计 ”的 具体 技术 研发 
趋势 为 G06F ( 计算 ; 推算 ; 计数 一 一 电 数 字数 
据 处 理 ) 、G02B ( 光学 一 一 光学 元 件 、 系 统 或 
仪器 ) 、HO4N ( 电 通 信 技 术 一 一 图 像 通信 ， 如 
电视 ) 等 领域 ; 产业 链 下 游 “行业 应 用 ”的 具 
体 技术 研发 趋势 为 A63F ( 运动 ; 游戏 ; 娱乐 活 


方法 可 扩展 到 其 他 领域 进行 专利 分 析 应 用 。 在 
数据 采集 与 清洗 的 基础 上 ， 基 于 IPC 分 类 号 构 
建 专利 产业 链 ， 并 通过 K-means 聚 类 进行 产业 
链 验证 ， 通 过 定性 和 定量 研究 方法 的 结合 ， 而 
不 仅仅 是 通过 单一 的 定性 方法 ， 进 行 专利 产业 
链 的 构建 ， 为 专利 领域 产业 链 研 究 提供 新 的 研 
究 视 角 。 在 产业 链 视 角 下 ， 通 过 计算 上 、 中 、 
下 游 专 利文 本 的 关键 词 权 重 、 主 题词 权重 ， 进 
而 结合 二 者 衡量 专利 的 综合 强度 ， 以 此 挖掘 专 
利 的 技术 主题 强度 与 热点 ， 预 测 专利 的 技术 发 
展 趋 势 ， 为 专利 文本 挖掘 和 技术 主题 分 析 提 供 
新 的 研究 思 
6.2 对 策 建 议 

中 国 VR 正 处 于 产业 爆发 的 前 儿 ， 即 将 进 
入 持续 高 速 发 展 的 窗口 期 。 可 以 预见 ， 在 未 来 
的 五 年 内 ，VR 消费 市 场 将 迅速 爆发 ,行业 应 用 
有 望 全 面 展 开 ， 文 化 内 容 将 日 趋 繁荣 ， 技 术 体 
系 和 产业 格局 也 将 初步 形成 。 为 推动 我 国 VR 
产业 发 展 ， 建 议 从 以 下 方面 开展 工作 : 中 进 一 
步 加 强 虚 拟 现 实 技术 的 研发 。 政 府 应 支持 设立 
重大 相关 研发 项 目 , 为 产业 发 展 提供 共性 技术 、 
关键 技术 甚至 颠覆 性 技术 的 供给 ; 围绕 虚拟 现 
实 产业 链 的 关键 环节 ， 加 强 产 学 研 合作 ， 积 极 
引导 企业 与 科研 单位 投入 虚拟 现实 人 研究， 在 关 
键 技 术 上 开展 深度 合作 。@ 大 力促 进 虚 拟 现实 
技术 的 市 场 化 和 产业 化 。 以 虚拟 现实 技术 在 工 
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业 、 文 化 、 教 育 、 娱 乐 和 医疗 等 领域 带 来 的 广 
阔 前 景 为 契机 ， 明 确 产业 政策 文 持 的 方向 。 
@@ 尽 快 建立 虚拟 现实 技术 的 行业 标准 。 形 成 我 
国 虚拟 现实 技术 标准 体系 ， 巩 固 自 主 技术 布局 
占 位 ， 提 高 产业 自主 话语 权 。 
6.3 研究 展望 

研究 的 局 限 性 在 于 选取 的 检索 数据 库 为 “中 
国 专利 数据 库 ”， 数 据 仅 限 于 在 华 申 请 的 专 
利 ， 且 数据 库 没 有 相应 的 引文 数据 ， 无 法 做 到 
与 引文 指标 的 对 比分 析 。 因 此 ， 在 下 一 阶段 的 
研究 中 ， 可 以 选择 德 温 特 专 利 数据 库 ( Derwent 
Innovation Index, DII) 作为 检索 数据 库 ， 德 温 
特 数 据 库 及 其 专利 引文 索引 涵盖 100 多 个 国家 、 
40 多 个 专利 机 构 ， 数 据 最 早 可 追溯 至 1963 年 ， 
为 大 规模 的 专利 文献 研究 提供 了 规范 可 靠 的 数 
据 来 源 ， 而 它 的 及 时 更 新 又 为 专利 技术 前 沿 的 
研究 提供 了 可 能 ， 是 企业 和 相关 研究 人 员 分 析 
专利 情报 必 不 可 少 的 工具 。 
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Technology Topic Mining and Trend Analysis from the Perspective of Industrial Chain 
Combined with K-Means and LDA 
Taking Virtual Reality Technology as an Example 


Chen Ling! Lin Ping’ Duan Yaoging ^ 
"School of Information Management, Central China Normal University, Wuhan 430079 
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Abstract: [Purpose/significance] From the perspective of industry chain, this paper takes virtual reality 
technology as an example, constructs VR patent industry chain corpus, and explores the technical theme, 
research and development hotspot and future development trend of China VR patent. [Method/process] 
First of all, this paper used Python to crawl the patent text in VR field and got effective corpus through data 
cleaning. Secondly, combining IPC classification number and K-means clustering algorithm, this paper 
constructed and validates VR patent industry chain. In addition, based on TF-IDF algorithm and LDA theme 
model, we identified the core technology themes and their comprehensive strength, technology research and 
development hotspots and future trends of China VR patents from the perspective of production chain. [Result/ 
conclusion] At present, the proportion of patents in each link of China VR industry chain is unbalanced. The 
upstream link is the most popular, followed by the downstream link, and the weakest link is the midstream 
link. In terms of theme mining, the upstream hot spot is software development, the midstream hot spot 
is film and television production, and the downstream hot spot is medical, educational and entertainment 
applications. In terms of future trends, the upstream of the industrial chain will be dominated by technologies 
such as electronic digital data processing, optical components, image communication, etc., the midstream will 
be dominated by technologies such as vehicle components, power devices, damping devices, etc., and the 
downstream will be dominated by technologies such as indoor games, medical diagnosis, identification, etc.. 

Keywords: K-means clustering algorithm LDA theme model technology theme evolution text 
mining VR 
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